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У статті наведено метод розпізнавання емоційного стану за голосом, у якому ознакові описи 
емоційних станів формуються за множиною акустичних, просодичних та екстралінгвістичних 
характеристик. Запропоновано групування характеристик за їх розташуванням у типових фрагментах 
інтонаційних конструкцій. Числові дослідження показали, що даний підхід дозволив підвищити 
ймовірність розпізнавання емоцій емоційних станів порівняно із результатами без використання 
згрупованих ознак. 
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Вступ 

Задача автоматизованого розпізнавання емоційних станів людини на 
сьогоднішній день є актуальною у багатьох сферах розпізнавання образів. 
Складнощі виникають через не стаціонарність та нестабільність проявів емоцій, які, 
зазвичай, зовні слабо виражені й швидко змінюються. І якщо у безпосередньому 
контакті з людиною зафіксувати ознаки емоцій можна за допомогою виміру тиску, 
частоти скорочення серця та електромагнітної активності мозку, то віддалене 
розпізнавання проводиться лише шляхом фіксації візуальних (рухи, міміка) та 
звукових образів. У світі є певні досягнення у розпізнаванні низки емоцій за 
допомогою візуальних образів на сталих зображеннях, натомість про існування 
аналогічних розробок на основі звукових образів досі невідомо. 

Метою даної статті є розробка методу, здатного виконувати розпізнавання у 
звуковому сигналі наявності проявів емоції у людини за її мовленнєвою активністю. 
В Україні задача розпізнавання емоцій за акустичними ознаками не набула 
розповсюдження, а відповідні запатентовані методи розпізнавання не є доступними 
для дослідження й використання. 

Постановка задачі 

Виходячи з мети роботи, були поставлені наступні задачі: 

1. Проаналізувати перелік акустичних ознак, за якими можлива параметризація емоцій 
людини, на основі яких можна розробити та описати метод розпізнавання емоцій. 

2. Відібрати перелік емоцій, прояви яких будуть розпізнаватись, та виконати їх 
ознаковий опис. 
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3. Чисельно дослідити ефективність запропонованого методу розпізнавання емоцій. 

Аналіз акустичних ознак проявів емоцій 

Виходячи із задачі, параметри мають бути якомога менше залежними від 
індивідуальних особливостей голосового тракту дикторів. Таким чином, недоцільно 
використовувати наступні засоби, що характеризують особливості диктора: висоту 
тону, абсолютну силу голосу, а також перехідні спектральні процеси у міжфонемних 
відрізках мовного сигналу |1|. Для виокремлення особливостей прояву емоційних 
станів було обрано наступні параметри. 

1. Нормовані значення енергетичного спектра. Для отримання наборів даних 
інтегральних ознак на кожному з (фреймів обчислюється короткочасний 
енергетичний спектр за допомогою фільтрації гребінкою цифрових фільтрів. Для 
обчислення смуг пропускання в рамках характеристик була використана барк-шкала, 
пов'язана з критичними смугами слуху, а також шкала півтонів натурального ладу. 
Такий вибір зумовлений психоакустичними принципами сприйняття. 

Після фільтрації гребінкою з М цифрових фільтрів (залежно від використаної 
шкали) мовний сигнал може бути представлений у вигляді двовимірного масиву 
значень короткочасних енергетичних спектрів (спектральних зрізів), отриманих на 
кожному вікні аналізу: 

(х01,)),...., х(І,)),..., ХОМ), 7-1,2,... 

де х(ї,)) - значення енергії сигналу на виході і-го смугового фільтра у /-му 
спектральному зрізі; 

7 - загальна кількість вікон на відрізку сигналу. 

Нормування значень ознак виконується для зниження залежності значень від 
лінійних викривлень мовного сигналу при його звукозаписі. Введемо операцію 


нормування масиву бор по 2К- І точках: 
бо 


йа(м - К) Юа М-КУІ,М 


Тоді нормовані значення енергетичного спектра обчислюються як: 


Х(і)з ОВ і 
5 хі) 
ізі 
де х(ї) - середнє значення по рядку масиву: 
зі 
х()з -У хі, 5). 
/ узі 


2. Відносний час перебування сигналу у смугах енергетичного спектра. 
Значення кожної і-го ознаки обчислюється за формулою: 


іа АЛЛО) 


/ 


» 
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де ДЛ) - кількість спектральних зрізів, за яких енергія в і-й смузі перевищує 
середнє значення. 
3. Відносна потужність спектра мовлення в смугах. Обчислюється за формулою: 


р) МРІЮ) Рі)» 2 
Д/ (г) 

Наведені вище інтегральні ознаки дають змогу апроксимувати особливості 
стану фільтруючих функцій мовного тракту, динаміка змін яких буде свідчити про 
наявність психоемоційних або фізіологічних збудників. 

4. Значення компонент гістограми розподілу частоти основного тону. 

Частота основного тону (ЧОТ) - значення частоти коливань голосових зв'язок 
у діапазоні 80-350 Гц (Ко), характеризує особливості голосу особи, відносно яких 
можливий аналіз динамічних характеристик. Для визначення значення ЧОТ у 
мовному сигналі застосовується наступний алгоритм. З відрізка сигналу за 
допомогою порогів усуваються фрагменти, що відповідають низькоенергетичним 
елементам мовлення, 1 ті ділянки, що мають високу частоту перетину нульового 
рівня сигналу (частіше за все, приголосні звуки). Отриманий таким чином сигнал 
розбивається на вікна 1 на кожному з вікон визначається ЧОТ за допомогою методу 
кепстрального аналізу, який зводиться до пошуку піку в області можливих значень 
ЧОТ, координата піку дає оцінку періоду даної частоти. 

Дані ознаки призначені для опису особливостей розподілу значень основного 
тону голосу людини в діапазоні 50-400 Гц. Наступні компоненти гістограми обрані 
для опису розподілу ЧОТ: значення середньої, максимальної та мінімальної частоти, 
асиметрія та ексцес щільності розподілу. 

5. Кепстральні коефіцієнти. Для відокремлення сигналу збудження від 
сигналу мовного тракту вдаються до кепстрального аналізу. Мел-частотні 
кепстральні коефіцієнти враховують психоакустичні принципи сприйняття мови, 
оскільки використовують шкалу Мел, пов'язану з критичними смугами. Для шкали 
Мел межі смуг відповідають центральним частотам Барк шкали. У даній роботі 
використано 13 трикутних фільтрів, розташованих рівномірно по шкалі Мел від 0 до 
частоти Найквіста. Цього достатньо для охоплення смуги частот мовного сигналу Із 
необхідною роздільною здатністю. 

6. Просодичні характеристики. Основними компонентами просодичного 
аналізу є інтонація 1 наголос. Фізично інтонація і наголос реалізуються сукупністю 
акустичних засобів (просодичних характеристик мови), до числа яких відносяться: 

- мелодика - рух частоти основного тону (ГО); 
- ритміка - поточна зміна тривалості звуків 1 пауз; 
- енергетика - поточна зміна сили (амплітуди) звуку. 

Головним компонентом інтонації є мелодика, яка описується мелодійним 
контуром. Мелодійний контур - характерна для мови картина зміни основного тону, 
звільнена від сегментних і позиційних впливів. Необхідно враховувати сукупність 
характеристик мелодійного контура для створення повного уявлення про певну 
інтонаційну конструкцію. Основні параметри мелодійного контура, які необхідні 
для визначення типу інтонаційної конструкції: 

- початкова та кінцева частоти (значення ЧОТ першого та останнього відліків 
фрагменту контура); 

- максимальна та мінімальна частоти (максимальне та мінімальне значення частоти 
ОТ у межах контура); 
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-. середня частота (усереднене значення частоти ОТ у межах контуру); 

- час максимуму та мінімуму (позиції максимального та мінімального значень ЧОТ 
у відсотках від довжини усього фрагмента); 

- час половини частоти (позиція значення середньої ЧОТ у відсотках від довжини 
усього фрагмента); 

- швидкість зміни тону (середня швидкість зростання чи спаду тону на відрізку, Гц/мс). 

За допомогою цього набору просодичних характеристик визначається тип 

інтонаційної конструкції речення. В основі методики визначення типу інтонаційної 

конструкції, що використовується в даній роботі, лежить модель інтонаційних 

портретів акцентних одиниць |2). Основні ознаки інтонаційних конструкцій наведені 

у таблиці І. 


Таблиця 1. Типи інтонаційних конструкцій висловлювань 


Ж Тип інтонаційної конструкції ізананонано 
висловлювання 

1. |Розповідне речення Спадаючий на кінці 

2. |Спеціальне питання, веління Спадаючий або сильно спадаючий 

3. |Загальне питання, незавершеність Зростаючий 

4. | Порівняльне питання Спадаючий або спадаюче-зростаючий 

5. | Вигук 1-й центр - зростаючий 

6. |Оціночний вигук 2-Й центр - зростаючий 

7 Експресивна оцінка Зростаючий до середини, потім 

спадаючий 


7. Екстралінгвістичні події. Наявність у фрагментах пауз мовленнєвого 
сигналу кашлю, зітхань, плачу, сміху або інших, з акустичних подій, притаманних 
певним емоціям, частіше за все не беруться до уваги. Ці події називаються 
екстралінгвістичними або позамовними, оскільки не є результатом мовного процесу. 
У даній роботі для автоматизації пошуку таких подій запропоновано створити 
окремі моделі екстралінгвістичних подій через їх особливість прояву, не схожу на 
мовну активність. 

Використання як ознак характеристик різного роду накладає умови 
використання універсальних методів узагальнення. Для даної задачі використаємо 
метод сумішей Гауса, який не спирається на специфіку параметрів і може працювати 
з векторами ознак великого порядку | 31. 

Моделі, що створюються на основі сумішей Гауса, поділяють простір ознак на 
області, в яких сконцентровані значення векторів ознак. Класи в просторі ознак 
описуються у вигляді багатовимірного ймовірнісного розподілу. Основна ідея 
представити його у вигляді зваженої суми М нормальних розподілів: 


М 
рбх 14)- У мерід 
М із 5 
де Х - М-вимірний вектор ознак; 
м/о -- вагові коефіцієнти компонентів моделі; 
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Рі  - багатовимірні функції щільності розподілу складових моделі. 
Таким чином, повністю модель описується векторами математичного очікування, 
коваріаційною матрицею і вагами сумішей для кожного компонента моделі. 
Широко вживаним способом оцінки параметрів моделі є метод максимізації 
правдоподібності, функція якого має вигляд: 


г З 
Сх 12) - | Бест, 122 


ті 5 


де Ж їси, т) - послідовність векторів ознак. 
Припускаючи, що усі прояви емоцій однаково ймовірні, спрощене правило 
класифікації має вигляд: 
гез - ага тах р(Х | Лу) 
1«к«5 


, 
де 5 - кількість емоційних проявів. 

Ознаковий опис множини емоцій 

На сьогодні не існує однієї загальноприйнятої класифікації людських емоцій. 
Загальновідомим є перелік 10 «фундаментальних» емоцій К. Ізарда |41): інтерес, 
радість, здивування, страждання, гнів, відраза, зневага, страх, сором та провина. 
Оскільки у даній класифікації наявні близькі як за семантикою, так і за проявом 
емоції (інтерес та здивування, відраза та зневага, сором та провина), виключимо по 
одній емоції з цих пар, спростивши задачу розпізнавання у даній роботі. Розглянемо 
докладніше прояви обраних 7 емоцій. 

Інтерес - почуття захопленості, цікавості, має яскравий стенічний характер. 
Перебування у стані носить стійкий інтенсивний характер. Прояв інтересу у голосі 
помітно по контуру речень, що зростають інтонаційно, а також по зменшенню пауз 
між словами до 1296. Окрім інтонаційних характеристик можна спостерігати 
статистично більше значення максимальної ЧОТ (до 690) і відповідно незначну 
позитивну асиметрію щільності розподілу. На тестових зразках характерною є 
ознака відсутності екстралінгвістичних подій. 

Радість - позитивна емоція, пов'язана з можливістю досить повно 
задовольнити актуальну потребу, ймовірність чого до цього була невелика або 
невизначена. Має стенічний характер. Радість характеризується збільшенням 
нормованого часу перебування сигналу у смугах середніх і високих частот 
енергетичного спектра мовлення (53-517). Фіксувалось збільшення нормованої енергії 
спектра. Швидкість вимови має зростання до 590. Ймовірні екстралінгвістичні події: 
сміх, плач. 

Страждання - негативний емоційний стан, пов'язаний з отриманням 
достовірної (чи яка здавалася б такою) інформації про неможливість задоволення 
найважливіших потреб, досягнення яких до цього оцінювалось більш ймовірним. 
Страждання має прояви, які характеризуються, перш за все, просодичними 
характеристиками: інтонаційний контур спадаючого типу або максимально рівний, 
негативна асиметрія щільності розподілу ЧОТ від -295 до -1190, ймовірні появи 
збільшеної тривалості пауз, а також зменшення швидкості вимови на 890. 

Гнів - виникає у відповідь на перешкоду в досягненні пристрасно бажаних 
цілей. Гнів має характер стенічної емоції. Прояви характеризуються збільшенням на 
5-1690 відносного часу перебування сигналу у смугах енергетичного спектра, 
близьких до ЧОТ (52-56). Відносна потужність спектра мовлення більша насамперед 


56 О М.С. Клименко 


155 1561-5359. Штучний інтелект, 2017, М» 2 


у верхніх смугах частот (510-917). Швидкість вимови може зростати, а інтонаційні 
конструкції частіше за інших є типу вигук, оціночний вигук або експресивна оцінка. 
Ймовірні екстралінгвістичні події: крик, вигук, задишка. 

Відраза - негативний емоційний стан, що викликається об'єктами, зіткнення з 
якими вступає в різке протиріччя з принципами та установками суб'єкта. Відраза має 
ознаки гніву, але відносний час перебування сигналу у смугах енергетичного спектра 
зростає незначно - до 490. Характеристики ЧОТ відрізняються відсутністю 
збільшеного ексцесу. Щодо тривалості пауз та швидкості вимови - ознаки 
демонструють відхилення від стану спокою, але коливання можливі в обох напрямках. 

Страх -- негативний емоційний стан, що з'являється при отриманні суб'єктом 
інформації про можливу чи уявну небезпеку для себе або об'єктів, які мають високу 
ціну для суб'єкта. Проявляється відхиленням параметра нормованих значень 
енергетичного спектра у смугах із максимальним скупченням потужності мовлення 
(54-51), а також короткочасними сильними підвищеннями відносної потужності 
спектра мовлення у верхніх смугах від 690 до 22906. Серед значень ЧОТ наявна значна 
негативна асиметрія щільності розподілу, а з екстралінгвістичних подій є ймовірною 
поява крику, плачу та задишки. 

Сором - негативний емоційний стан, що виражається в усвідомленні 
невідповідності власних помислів, вчинків не тільки із очікуваннями оточуючих, а й 
з власними уявленнями про належну поведінку в даній ситуації. Має астенічний 
характер та інтенсивність проявів від низької до середньої. Прояви сорому можуть 
бути параметризовані зменшенням на 2-69о відносного часу перебування сигналу у 
нижніх смугах енергетичного спектра (53-53). Із просодичних характеристик сорому 
можна виділити зменшення діапазону зміни ЧОТ, ексцесу щільності розподілу її 
значень до 7906. Тривалість пауз може зростати від 5906 до 1690, а інтонаційні 
конструкції частіше за інших мають рівний характер або із зростанням до кінця. 

Числове дослідження ефективності методу 

Для проведення числового дослідження було виконано запис фрагментів 
прояву 7 обраних емоцій. Запис виконувався у моно режимі із частотою 
дискретизації 44100 Гц, глибиною квантування 16 біт, а для збереження 
використовувався формат МАУ РСМ без втрати якості. У записі брали участь 20 
дикторів (12 чоловічої та 8 жіночої статі) віком від 22 до 38 років. Кожним диктором 
було виконано імітацію проявів 7 емоцій. Запис прояву однієї емоції тривав 16-35 с., 
що дозволило отримати по 1-2 фрагменти окремих проявів із завершеною 
інтонаційною конструкцією для можливості м отримання усіх зазначених 
характеристик. Результати розпізнавання методом без урахування особливостей 
інтонаційного контуру наведено у таблиці 2. 

Таблиця 2. Результати розпізнавання проявів емоцій без урахування типу ІК 


Емоція, що розпізнається Результат розпізнавання прояву емоції 

Хо | Назва 1 2 В. 4 5 6 7 
1 Інтерес З 4 2 1 

2 Радість 5, 19 1 1 

З Страждання 2 12 3 2 1 
4 Гнів 3 15 2 

з) Відраза 8; Я 10 2 3 
6 Страх 2 4 14 

5 Сором 4 2 2 12 
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Проаналізувавши табличні дані, стає зрозумілою певна згрупованість помилок 
розпізнавання серед підмножин емоцій, а саме інтересу та радості, страждання та 
відрази, страху та гніву. Це є свідченням відсутності чіткої параметризації даних 
емоцій наявними ознаками. 

У таблиці 3 наведено результати низки розпізнавань запропонованим методом 
із групуванням ознак за фрагментами інтонаційного контуру. 


Таблиця 3. Результати розпізнавання проявів емоцій за допомогою 
запропонованого методу 


Емоція, що розпізнається Результат розпізнавання прояву емоції 

Хо | Назва 1 2 3 4 З 6 7 
1 Інтерес 16 3 1 

2 Радість 2 18 

3 Страждання 17 2 1 

4 Гнів 2 18 

5 Відраза 1 2 16 1 
6 Страх 2 1 17 

7 Сором З Т. 16 


Ймовірність правильного розпізнавання кожної емоції у даному випадку склала 
не менше 80906. Скоротилась не тільки ймовірнісна характеристика помилки, а й 
кількісна - множина помилкових варіантів емоцій. Досі простежується ефект 
згрупованості помилок результатів першого дослідження, що свідчить про 
необхідність вдосконалення розділової здатності ознак для врахування особливостей 
проявів даних емоцій. 

Висновки 

У статті запропоновано метод розпізнавання емоцій за голосом, який 
використовує особливості інтонаційного контуру для групування ознак. Даний підхід 
дозволив отримати більш деталізовану інформацію щодо особливостей стану голосу, 
які набувають стаціонарного характеру саме в межах інтонаційного фрагменту. 

Для числових досліджень ефективності методу обрано 7 емоцій, які мають 
більшу відносно інших амплітуду зміни проявів у голосі. Для їх ознакового опису 
використано множину із 7 характеристик різного роду, які дозволяють створити 
ознаковий простір для з'ясування особливостей прояву емоцій. Числове 
дослідження якості автоматичного розпізнавання за усією множиною характеристик 
показало середню ймовірність розпізнавання емоцій - 84905 серед фрагментів 20 
дикторів. Складність для класифікації являють собою групи емоцій, що мають 
близькі параметри ознак. Вирішення цих проблем може стати подальшим розвитком 
даної роботи. 
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КЕ5СМЕ 

М.8. КіутепКо 

Мешод ої етобопа! сопадййоп гесоєпілтіпе Бу уоісе и5іпе ріга5е5 тоадеїя 

Тре агіїсіе деєбсгібеє Ше теїрой ої ептобйопаї сопаїйоп гесоєпіліпеє Бу уоісе. То 
ін5йпеція б Фе Геашгез ої етопопа! сопаопе, ап апаЇузіє ої спагасіегівййся 5иїабіе Їога 
бімеп іа5К мла5 сопдаийсіеа, їгот міс а 5екс ої асоцяйс, рго5одіс апа ехіга-Ппеціяйс 
срагасіегі5ййся муеге спо5еп. ТПе Феуеїортепі ої Фе пейой у аз саггіед оці Бу апаЇуліпе, 
Фе уаїшез ої Ше5е срагасі(егів(йїся, м/рісіп аге саїсиіаюгд оп Ше зоцпа Їтаєтепіз ої 
етойопа! сопаїоп5 папіїезіайопя. 

Апаїузі5 ап пигпегіс гезеагсре5 у/еге регіогтед оп (фе їоПом/їпо 5еї ої еплойопа! 
сопаїйопі: іпіегезі, |оу, зиНегіпе, апеег, амег5іоп, Їеаг апа 5пате. ТПез5е епойопаї сопдїоп5 
ууеге спобеп гот а м/лтдег ПЗ, ехсері Їог геіайуез, Бо їп іегтя ої зеплапіїся апа тапіїезіацоп. 

І Фе апаїЇубіз ої Ше дї5іібийоп ої ре уаїез ої спагасіегі8ііс5, ап іпсгеа5е їп Ше 
деп5їу ої дйї5ітібийоп їп ріасез5 мір а сегіаїп (уре ої їгабтепі ої Ше іпіопайоп сопіоиг 
ууа5 об5егуей. Тріз ргорегіу у/а5 Ше Базі5 ої Ше піеШпоай. з ез5епсе 15 Ша Ше Іеагиге 
уесіог8 ої а! срагасіегі5йся аге єгопрей Бу ШФеїг Беіопеїпе іо ігаєтепіз ої Ше іпіопайоп 
сопіоиг, у/ПпісП 15 саїсиТакеа Пгзі ої а. ТРБеп, оп Ше Базі8 ої еасі ягопр ої Геаїиге уесіог5, 
а тодеі Ба5ед оп Фе Сай55 пихіиге тешодй 15 Гогтеад. Тре сопбіпацоп ої 5иср плодеї8 
дезсгібез а бепега! тоде! ої етойопаї сопдаїйоп тапіїевіайоп. 

Тре питегіс гезеагспе5 атопе Ше Їгаєтепі5 ої 20 5реаКег5 Їог Ше ууПоіе 5ес ої 
срагасіегі5йс5 5Помед ап амегаєе ргобабійу ої етойоп гесоєпійоп ої 8490, мупіср 
ехсеедз Ше 5іпшШаг гезці( ої гесобпійоп у/Фоці єгоипріпє ої Геациге уесіог8. 
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